home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / networking / info-service / wais / ir-book-sources / stemmer / testfile < prev   
Text File  |  1993-04-08  |  2KB  |  32 lines

  1.  
  2. One technique for improving IR performance is to provide searchers with
  3. ways of finding morphological variants of search terms.  If, for example, 
  4. a searcher enters the term stemming as part of a query, it is likely that 
  5. s/he will also be interested in such variants as stemmed and stem.  We use 
  6. the term conflation, meaning the act of fusing or combining, as the general 
  7. term for the process  of matching morphological term variants.  Conflation 
  8. can be either manual--using some kind of regular expressions--or automatic, 
  9. via  programs called stemmers.  Stemming is also used in IR to reduce the 
  10. size of index files.  Since a single stem typically corresponds to several 
  11. full terms, by storing stems instead of terms, compression factors of over 
  12. fifty percent can be achieved.
  13.  
  14. As can be seen in Figure 1.2 in chapter 1, terms can be stemmed at indexing 
  15. time or at search time. The advantage of stemming at indexing time is 
  16. efficiency and index file compression--since index terms are already
  17. stemmed, this operation requires no resources at search time, and the 
  18. index file will be compressed as described above. The disadvantage of 
  19. indexing time stemming is that information about the full terms will be 
  20. lost, or additional storage will be required to store both the stemmed and 
  21. unstemmed forms.
  22.  
  23. Figure 8.1 shows a taxonomy for stemming algorithms.  There are four 
  24. automatic approaches. Affix removal algorithms remove suffixes and/or 
  25. prefixes from terms leaving a stem.  These algorithms sometimes also 
  26. transform the resultant stem.  The name stemmer derives from  this method, 
  27. which is the most common.  Successor variety stemmers use the frequencies 
  28. of letter sequences in a body of text as the basis of stemming. The n-gram 
  29. method conflates terms based on the number of digrams or n-grams they share.
  30. Terms and their corresponding stems can also be stored in a table. Stemming
  31. is then done via lookups in the table.  These methods are described below.
  32.